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Hi 要 : 电信 运营 商 为 了 发 现 可 能 离 网 的 客户 ， 针 对 不 同 的 场景 研究 开发 了 多 种 离 网 预测 模型 。 目 前 的 离 网 预测 模型 
首先 选择 一 种 时 间 粒 度 抽取 特征 ， 之 后 使 用 机 器 学 习 算法 对 抽取 的 数据 建 模 。 这 类 方法 只 考虑 了 模型 对 分 类 性 能 和 

响 ， 没 有 充分 考虑 数据 的 作用 。 针 对 上 述 问题 ， 提 出 一 种 使 用 多 种 时 间 粒 度 抽取 特征 的 方法 ， Sa 
同 阶段 对 不 同 粒度 的 特征 进行 融合 。 实 验 结果 表明 ， 使 用 多 种 粒度 抽取 特征 训练 出 来 的 模型 性 能 会 明显 优 于 使 用 单一 
粒度 抽取 特征 的 模型 。 
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Application of multi-grain temporal features in churn prediction 


Shi Hongbin, Yan Jianfeng, Bai Ruirui, Xu Caixu, Xu Guanggen 
(School of Computer &Technology, Soochow University, Suzhou Jiangsu 215006, China) 


Abstract: Telecom operators have developed multiple churn prediction models to find potential users for different scenes. The 
present churn prediction models firstly select a kind of time granularity to extract features, then model the extracted data using 
machine learning algorithm. Such approaches only consider the influence of the model on classification performance, but the 
role of data is not fully considered. To solve this problem, this paper proposed a method which extracts multi-grain temporal 
features, and try to integrate different granularity features at different training phases. Experimental results show that the 
performance of the model trained with multi-grain features is obviously superior than that trained with single granularity features. 
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从 图 2 可 以 看 出 ， 活 跃 用 户 占 比 较 高 ， 约 为 63%。 由 于 非 
活跃 用 户 的 离 网 可 以 通过 阐 值 较 精确 的 预测 出 ， 并 且 对 运营 商 

近年 来 ， 用 户 流失 问题 成 为 电信 运营 商 或 需 解 决 的 问题 ， 的 利润 影响 不 大 ， 因 此 聚焦 活跃 用 户 的 离 网 意义 重大 。 研 究 表 
同时 也 引起 了 业界 的 广泛 关注 和 研究 。 图 1 统计 了 上 海 市 某 运 明 ， 成 功 发 展 一 个 新 客户 的 成 本 是 挽留 现 有 客户 的 3 倍 以 上 ， 
营 商 2G/3G 预付 费用 户 在 2015 年 9 月 到 2016 年 8 月 期 间 的 离 而 采用 合理 的 维系 挽留 策略 挽留 客户 的 成 功率 高 于 发 展 新 用 户 
网 率 。 其 中 活跃 用 户 指 的 是 每 个 月 的 通话 总 时 长 、 上 网 总 流量 ”的 成 功率 03。 本 文 针 对 活跃 用 户 群 体 ,研究 和 实现 了 基于 多 粒 
或 者 发 送 短 信和 总 次 数 超过 阔 值 的 用 户 ， 可 以 给 运营 商 带 来 更 大 度 时 序 特征 的 离 网 预测 模型 ， 为 运营 商 采 取 有 针对 性 的 维系 挽 
的 商业 利润 ， 非 活跃 用 户 指 的 是 通话 总 时 长 等 三 项 指标 没有 达 ” 留 策略 提供 了 科学 依据 ， 最 大 程度 挽留 用 户 并 增加 利润 。 


到 阔 值 的 用 户 ， 给 运营 商 带 来 的 利润 较 少 
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从 运营 商 的 角度 ， 用 户 有 两 种 状态 ， 在 网 和 离 网 。 用 户 能 
给 运营 商 带 来 收入 ， 这 个 用 户 就 被 认为 是 在 网 。 当 用 广 
营 商 带 来 任何 收入 时 ， 这 个 用 户 就 被 认为 是 离 网 。 离 网 预测 
用 户 的 历史 行为 数据 ， 从 中 找到 一 些 行 为 规律 ， 从 
而 对 用 户 未 来 的 行为 进行 预测 。 目 前 国内 外 的 离 网 预测 研究 主 
方面 提高 性 能 : 构建 有 用 的 特征 、 构 造 好 的 分 类 器 和 
分 类 器 集成 &5。 构建 特 征 阶段 主要 使 用 某 种 时 间 粒 度 抽 巴 
的 个 人 信息 ， 行 为 数据 (包括 通话 ， 短 信 、 上 网 等 ) 特征 ， 例 
Wik HIN, FEAR ae 2 小 时 局 。 月 粒度 指 的 是 将 时 间 按 月 
分 ， 统 计 用 户 在 每 个 月 的 数据 ， 如 话费 、 通 话 量 、 短 信 量 等 。 
日 粒度 和 小 时 粒度 与 月 粒度 类 似 。 构 建 分 类 器 阶段 常见 的 算法 
包括 神经 网 络 (neural networgkc2 , i 4 [a] JA (logistic 
regression)!'~!7], x |] gr 4L(support vector machine)03 15， 决 
WW (decision tree), K 近邻 区 -nearest neighbors)08 等 。 其 
中 文献 [6] 通 过 神经 网 络 算法 构造 离 网 预测 模型 ,文中 构造 了 三 
种 网 络 结构 ,包括 :具有 两 层 全 连接 层 的 结构 ; 具有 三 层 全 连接 
屋 的 结构 ; 一 个 卷 积 - 池 化 层 和 两 层 全 连接 层 的 结构 。 实 验 
发 现 ， 集 成 学 习 被 认为 是 提高 模型 性 能 的 一 种 有 效 的 方法 ， 在 
离 网 预测 问题 中 有 支持 向 量 机 集成 ?20， 决 策 树 集成 P3 等 。 文 
献 [19] 训 练 多 个 不 同 的 支持 向 量 机 并 融合 , 文献 [22] 训 练 多 个 不 
同 的 决策 树 并 融合 。 综 上 所 述 ， 大 多 数 工作 集中 在 设计 分 类 器 


和 模型 融合 方面 ， 而 在 特征 抽取 阶段 ， 通 常 只 选取 单一 的 时 间 
粒度 特征 ， 很 少 考虑 使 用 多 个 时 间 粒 度 同时 抽取 特征 户 ]。 


针对 上 述 问题 ， 本 文 提 出 了 一 种 基于 多 种 时 间 粒 度 特征 融 
合 的 离 网 预测 方法 。 在 模型 训练 阶段 ， 按 照 特 征 值 是 否 随 着 时 
间 变 化 ， 分 为 不 变 特征 和 变化 特征 ， 又 对 变化 的 特征 进行 月 粒 
日 粒度 区 分 ， 通 过 不 同 组 合 方式 形成 不 同 的 数据 集 ， 分 别 
采用 随机 森林 和 GBDT 训练 得 到 六 个 模型 。 在 模型 融合 阶段 ， 


基础 上 得 到 结果 。 随 机 森林 在 训练 的 过 程 中 ， 各 棵 树 之 间 可 以 
同时 训练 ， 互 不 依赖 。 与 随机 森林 不 同 的 是 ，GBDT 在 训练 第 
玉 棵 树 时 ， 依 赖 于 前 上 -1 棵 树 的 和 输出。 假设 fi 表示 GBDT 中 
第 i 个 样本 的 预测 值 ， 则 六 可 以 表示 为 


K 
y=) Gy) a) 
k=l 
其 中 : K Fe, fe 表示 第 大 棵 树 的 输出 。 对 于 GBDT, 
本 文 有 以 下 目标 函数 : 


obj” =$ 10 5K) +P Af) 
i=l i=l 


z Yio” + f(x, )) + QF.) + constant 
i=l 


其 中 ， 1 是 损失 函数 ，Q 是 正则 项 。 将 损失 函数 在 了 处 用 素 
公式 展开 得 


a tle l 
obj” =D 108 + 8A) + shih GD) 


ial (3) 
+Q(f,) + constant 
其 中 g8; Ah, BEE SON 
8, = 2 yal) 
(4) 


h, = Fol (Ys o>) 
泰勒 公式 展开 可 知 ， 训 练 第 1 棵 树 时 依赖 前 1 一 1 棵 树 的 


输出 。 
1.2 ”模型 融合 方法 

模型 融合 通过 组 合 多 个 单 模型 ， 进 一 步 提升 模型 的 性 能 。 
假设 有 (x) 表示 第 i 个 模型 的 输出 ,TT 表示 模型 的 数量 , 本 文 使 


采用 了 平均 法 和 Stacking 方法 进行 模型 融合 ， 通 过 融合 不 同 的 
模型 ， 最 后 将 Top 25000 的 查 准 率 提高 到 0.5696. 


1 ”相关 理论 基础 


1.1 算法 
1.1.1 随机 森林 

随机 森林 是 由 Breiman 在 2001 年 的 提出 的 一 种 算法 ， 是 
Bagging 的 一 个 变 体 。Bagging 在 构造 样本 的 时 候 , 从 数据 集 DD 
中 有 放 回 的 抽取 一 个 样本 , 抽取 m 次 , 得 到 一 个 包含 换个 样 


m o % 


的 数据 集 D'， 重复 上 述 操作 得 到 个 数据 集 , 在 每 个 数据 集 
训练 一 个 基 分 类 器 ， 最 后 使 用 投票 的 方式 融合 多 个 基 学 习 器 。 

随机 森林 在 Bagging 的 基础 上 加 入 了 随机 属性 划分 。 假 设 样 本 
中 有 d 个 属性 ， 对 于 随机 森林 中 的 基 决 策 树 ， 选 取样 本 中 的 K 


个 属性 用 来 划分 叶子 节点 。 通 常 选取 上 =log,d 。 随 机 森林 通 
过 同时 加 入 样本 扰动 和 属性 扰动 ， 显 著 提 高 了 基 学 习 器 的 泛 化 
性 能 。 

1.1.2 GBDT 


GBDT 与 随机 森林 一 样 训练 多 棵 决策 树 ， 在 多 棵 决策 树 的 


用 两 种 模型 融合 方法 : 
1.2.1 Averaging 
模型 的 最 终 输出 为 


1 T 
H(x) =Z hO) G) 


即 得 到 每 个 模型 的 预测 概率 后 ， 将 这 些 概率 取 平 均值 作为 
最 终 输出 。 
1.2.2 Stacking 
Stacking 的 步 又 如 下 所 示 : 
算法 : Stacking 
输入 : WAS D 
基 学 习 算法 fio foro fro 
次 级 学 习 算 法 f 
输出 : HH(X)=h(h (x), h, (x), -hr (x) 
将 训练 集 妃 分 为 D M D, 
使 用 局 和 万, fosco fr VRE! h, hs.. Ap 
Kma A (D), h (D), -hr (Dz) 组 合成 DD 
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录用 稿 GBR, F: 多 粒度 时 序 特征 在 离 网 预测 中 的 应 用 
使 用 万 和 训练 模型 2 ERE 
本 文 使 用 逻辑 回归 作为 次 级 学 习 算法 。 在 预测 阶段 使 用 基 pages See | 
学 习 器 对 数据 集 进行 预测 得 到 预测 结果 ， 将 预测 结果 作为 次 级 wee eee ane 
学 习 器 的 输入 ， 次 级 学 习 器 的 预测 结果 作为 最 终 预测 结果 。 i PP WS 
FUE 
2 基于 多 粒度 时 序 特征 的 离 网 预测 模型 age 年 im 
terminal 终端 category 
本 文 所 提 的 离 网 预测 模型 框架 由 四 个 部 分 组 成 ， 分 别 是 数 roe D 
据 准备 、 特 征 抽取 、 模 型 训练 和 模型 融合 。 模 型 框架 如 图 3 所 i 
示 。 为 了 验证 提出 的 框架 的 通用 性 ， 在 模型 训练 和 模型 融合 阶 ne Bina d 
段 分 别 党 试 不 同 的 方法 。 
gift flex value 套餐 内 流量 float 
caller_cnt 主 叫 次 数 float 
feat call dur 节假日 通话 时 长 float 
sms _ bill cnt 短信 计 费 量 float 
特征 balance 余额 float 
| serve sms count 服务 类 短信 条 数 float 
Fo = 国生 
| | 三 村 ave [eure | ime [mama | xen 数据 集 使 用 滑动 窗口 的 方式 组 合 ， 各 个 特征 的 时 间 窗 口 如 
| 人 一 j 表 3 所 示 。 训 练 集 使 用 的 是 2015 年 1 月 到 2015 年 12 月 共 12 
ee ee aR aie i se 
日 共 92 天 的 日 粒度 特征 组 成 ， 标 签 使 用 2016 年 1 月 的 用 户 离 
2.1 数据 准备 网 和 在 网 标签 。 测 试 集 使 用 的 是 2015 年 2 月 到 2016 年 1 月 共 
实验 所 需 的 数据 来 自 于 上 海 某 运 营 商 的 大 数据 平台 ， 大 数 12 个 月 的 月 粒度 特征 以 及 2015 年 11 月 1 日 到 2016 年 1 月 31 
据 平台 每 天 会 产生 约 2.3 TB 的 数据 ， 这 些 数据 包括 BSS 日 共 92 天 的 日 粒度 特征 组 成 ， 标 签 使 用 2016 年 2 月 的 用 户 离 
(business support system) 数 据 以 及 OSS (operation support system) 网 和 在 网 标签 。 日 粒度 特征 粒度 较 细 ， 可 以 较 精 确 的 描述 用 户 
数据 。BSS 又 称 为 业务 支持 系统 ， 数 据 包 括 用 户 基本 信息 、 用 近期 的 行为 ， 但 天 数 取 太 多 容易 导致 特征 过 多 难以 训练 。 月 粒 
户 行 为 、 账 单 信息 、 语 音 数 据 、 短 信 数 据 及 通话 详 单 等 ,每 天 度 特 征 粒度 较 粗 ， 特 征 较 少 ， 适 合用 来 记录 用 户 长 期 的 行为 趋 
产生 大 约 24GB 的 数据 。 目 前 ,BSS 支持 的 用 户 包 括 2G/3G/4G =. A 12 个 月 的 月 粒度 特征 和 92 天 的 日 粒度 特征 可 以 同时 
预付 费用 户 和 后 付费 用 户 。 本 文 以 2G/3G 预付 费 活跃 用 户 为 研 发 挥 两 种 特征 的 优势 且 不 加 入 太 多 特征 。 
RMR, 从 三 十 多 张 表 中 选 出 10 张 表 作为 数据 源 , 包括 用 户 基 腿 设 五 、 丈 和 瑟 分 别 表 示 不 变 特征 ， 月 特征 和 日 特征 ， 
本 信息 日 表 、 用 户 基本 信息 月 表 、 用 户 行为 日 表 、 套 餐 表 、 用 如 图 4 所 示 , 通过 拼接 不 变 特征 和 月 特征 得 到 数据 集 D, ,拼接 
户 余额 月 表 、 用 户 语音 通话 详 单 表 、 用 户 短信 收发 详 单 表 、 账 ” 不 变 特征 和 日 特征 得 到 数据 集 D,, 拼接 不 变 特征 、 月 特征 和 日 
单 月 表 、 终 端 表 和 充值 表 。 实 验 中 使 用 的 训练 集 共 有 1415429 ”特征 得 到 数据 集 D; 。 
条 记录 ， 测 试 集 共 有 1 380 154 条 记录 。 表 3 数据 集 时 间 窗 
2.2 ”特征 抽取 KEA 
本 文 将 特征 分 为 三 种 ， 不 变 特征 、 月 特征 和 日 特征 。 不 变 SE ARE 
特征 指 的 是 特征 的 值 不 随时 间 的 变化 而 变化 ， 或 者 随时 间 线 性 A aee ane 
变化 。 本 文 从 用 户 基本 信息 中 抽取 部 分 不 变 特征 ， 比 如 性 别 、 on salen 
年 龄 等 .月 特征 指 以 月 为 单位 抽取 出 来 的 数据 ,如 每 月 的 话费 、 pene 
通话 时 长 、 上 网 流量 等 ,日 特征 指 以 日 为 单位 抽取 出 来 的 数据 ， a ules ante 
如 每 天 的 话费 、 通 话 时 长 、 上 网 流量 等 。 在 数据 库 中 数据 有 月 cn ae 
和 日 两 种 时 间 粒 度 ， 在 抽取 月 特征 时 ， 对 于 粒度 为 月 的 数据 ， papes 0 


直 ] 


52+, H 


KF Ail 


赚 取 出 对 应 的 值 ， 对 于 粒度 为 
的 平均 值 作为 月 特征 。 本 文 共 


Et A 


日 的 数 
取 不 变 


据 ， 求 该 特征 的 在 某 月 
特征 3 个 ， 月 特征 每 月 


34 个。 表 2 为 抽取 出 来 的 部 分 特征 样 例 。 


录用 稿 


2.3 ”模型 训练 


9 将 CBD 和 GBDT 的 预测 值 
d) 将 GBDT . GBDT, #1 GBDT, 


(Ga tS). 
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c0 


用 Stacking 融合 ( Gi, +S ); 
的 预测 值 用 Stacking 融合 


4) 平均 法 融合 不 同 分 类 器 


a) 将 RF 、RF, 、GBDT 和 GBDT, 的 预测 值 


融合 ( Ri,G, +A ); 
b) 将 所 有 6 个 模型 的 预测 值 用 Averaging 融合 


(RisG123 +A )。 


] Averaging 


5) Stacking 融合 不 同 分 类 器 


a) 将 RF 、RF,、GBDT 和 GBDT 的 预测 值 


合 ( RG + S ); 


| Stacking 融 


bp) 将 所 有 6 个 模型 的 预测 值 用 Stacking 融合 (RissGizs +S). 


3 ”实验 


本 文 实验 基于 运 


树 型 模型 是 一 类 在 工业 界 中 非常 常用 的 模型 ， 文献 [14~17] 
在 离 网 预测 任务 中 使 用 树 型 模型 ， 均 取得 了 比较 好 的 效果 。 同 
时 树 型 模型 可 以 在 一 定 程度 上 做 特征 选择 ， 降 低 不 同时 间 粒 度 
的 特征 融合 时 出 现 元 余 的 风险 。 在 树 型 模型 中 随机 森林 和 
GBDT 是 两 种 效果 非常 好 的 模型 ， 因 此 本 文 在 模型 训练 阶段 合 
用 这 两 种 模型 进行 训练 。 
在 上 述 三 个 数据 集 上 分 别 使 用 随机 森林 和 GBDT 训练 得 到 
6 个 模型 RF 、RF, 、RF,、GBDT,、GBDT, 、GBDT, 。 为 
本 ”了 保证 公平 , 分别 对 三 个 随机 森林 和 三 个 GBDT 使 用 相同 的 参 
这 数 。 对 于 随机 森林 ， 本 文 设置 树 棵 树 为 200 棵 ， 对 于 GBDT, 
于 设置 学 习 率 为 0.1， 树 最 大 深度 为 8，L2 正则 为 50。 其 他 参数 
© 使 用 工具 包 默认 值 。 
z 2.4 RERE 
LO 在 模型 融合 方法 中 Stacking 是 一 种 通用 且 有 效 的 方法 ， 文 
O 献 [25] 在 离 网 预测 任务 中 使 用 了 Stacking. 同时 Averaging 是 另 
and 一 种 比较 简单 有 效 的 融合 方法 , 在 本 文中 同时 使 用 Averaging 和 
© Stacking 做 对 比 实验 。 
GN 假设 A 表示 使 用 Averaging 融合 模型 , S 表示 使 用 Stacking 
.之 。 融合 模型 ， 对 于 模型 训练 阶段 训练 得 到 的 6 个 模型 ， 实 验 从 1) 
>< ”月 粒度 特征 和 日 粒度 特征 融合 ，2) 分 类 器 融合 两 个 角度 尝试 了 
= 14 种 融合 方式 ,其 中 R, 和 G, 尝试 了 两 种 粒度 的 特征 直接 拼接 
-十 。 后 训练 单个 分 类 器， 分 类 器 融 合 又 分 为 同 种 分 类 器 的 融合 和 不 
O 同 分 类 器 的 融合 。 当 模型 融合 方式 为 Stacking 时 ， 本 文 使 用 训 


练 集中 90% 的 数 ] 
具体 融合 方式 如 


怖 训练 基 学 习 器 , 10% 的 数据 训练 次 级 学 习 器 。 


DH 


粒 BERET 征 和 日 
a) 将 RF 的 预测 结果 作为 最 终 输 


b) 将 GBDT 的 预测 结果 作为 最 终 输 


粒度 特征 


融合 


出 (KR; ); 
H(G). 


2) 平 均 法 融合 同 种 分 类 器 


a) 将 RF, 和 RF, 的 


b) 将 RF ~ 


(Riz +A); 


口 将 GBDT, 和 GBDT, 的 预测 


(G2 +A); 


d) 将 GBDT 、GBDT, 和 GBDT, 


合 ( Gio; +A). 


RF, 和 RF, 的 预测 值 用 Averaging fi! 


预测 值 用 


Averaging 融合 (Ro +A); 


=. 


J Averaging Wi 


a 


|E. 


的 预测 值 用 Averaging 融 


3) Stacking 融合 同 种 分 类 器 


a) 将 RF, 和 RF 的 预测 值 用 
b) 将 RF, ~ RF, 和 RF 的 预测 值 ) 


Stacking 融合 (Rs +S ); 
J Stacking 融合 ( Riz +S); 


结果 和 分 析 


营 商 的 大 数据 平台 ， 平 台 共 有 15 个 节点 ， 


每 个 节点 有 24 个 CPU 核心 和 188 GB 内 存 。 在 数据 准备 和 特 


征 抽取 阶段 使 用 
合 阶 段 使 用 
3.1 评价 标准 


Spark 在 所 有 节点 上 计算 ， 模 型 j 
Scikit-learn 和 XGBoost 


|[ 练 和 模型 融 
在 单 节 点 计算 。 


实验 中 使 


评价 


HbR o 


j 查 准 
于 在 离 网 


因此 主要 考察 查 准 


X (precision), 


查 全 率 (recall 和 AUC 作为 
质 测 模 型 中 预测 正确 比 预测 全 更 重要 ， 


率 ， 


查 全 率 和 AUC 作为 参考 。 分 类 结果 的 


IAF 


阵 如 表 4 所 示 。 


表 4 混淆 矩阵 


真实 


情况 


正 例 


反例 


预测 结果 

反例 
FN( 假 反例 ) 
TN( 真 反例 ) 


正 例 
TP( 真 正 例 ) 
FP( 假 正 例 ) 


itt 


实验 中 取 Top25000 的 查 准 


的 概率 值 降 序 排序 ， 


标 为 负 例 ， 统 计 样 本 的 查 准 率 和 查 全 率 。 
AUC 是 ROC H 


将 


(TPR)， 横 轴 是 假 了 


将 预测 得 到 的 概率 值 降序 排序 ， 
90) 标记 点 。 依 次 将 概率 值 最 大 的 样 


率 P 和 查 全 率 R 的 定义 分 别 为 


_ TP 
TP + FP 
_ TP 

— TP+FN 


率 和 查 全 率 。 
个 预测 样 


(6) 


首先 将 预测 得 到 
本 标 为 正 例 ， 剩 下 的 


前 25000 


线 下 的 面积 。ROC 曲线 的 纵 轴 是 真正 例 率 
E 例 率 (FPR)， 定 义 分 别 为 
-IP 
TP +F. 

FPR = 一 一 一 
TN + FP 

全 部 标 为 反例 ， 在 坐标 (0， 

本 标记 为 正 例 ， 重 新 计算 
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TPR 和 FPR 并 在 坐标 中 标记 。 连 接 这 些 标记 点 得 到 ROC | 到 0.5507 并 且 在 加 入 R 后 ， 模 型 的 查 准 率 从 0.5507 提高 到 了 
线 。 0.5545。 查 全 率 和 AUC 总 体 持平 。 对 于 GBDT， 和 Baseline 的 
3.2 ”实验 结果 2 个 平均 法 融合 模型 的 方法 比 总 体 持平 ， 提 升 没 有 随机 森林 明 
使 用 随机 森林 和 GBDT 分 别 在 D, 和 D, 数据 集 上 训练 模型 显 。 这 说 明 将 有 具有 差异 性 的 基 分 类 器 通过 平均 法 融合 后 ， 可 以 
WM, WSR. RL. Gha G, 四 个 模型 ， 然 后 将 同一 种 时 间 减少 泛 化 误差 ， 提 高 模型 性 能 。 
粒度 训练 的 模型 用 平均 法 或 Stacking 融合 作为 Baseline, 与 3.4 表 8 Stacking 融合 同 种 分 类 器 
中 提 到 的 14 种 融合 方法 作对 比 。 表 5~10 是 实验 结果 。 模型 P R AUC 
425 Baseline 性 能 R+S 0.5487 0.2723 0.8883 
模型 P R AUC R+S 0.5585 0.2772 0.8895 
R 0.5147 0.2554 0.8815 Go +6 0.5014 0.2488 0.8995 
R, 0.5072 0.2517 0.8583 Gi +S 0.5246 0.2604 0.9045 
G, 0.4628 0.2297 0.8879 


表 8 与 表 7 类 似 , 表 8 将 表 7 中 的 平均 法 替换 为 Stacking。 
可 以 看 到 ， 使 用 Stacking 融合 随机 森林 时 同样 可 以 提高 模型 性 
能 ， 融 合 GBDT 时 效果 稍 差 。 对 于 相同 的 基 分 类 器 ， 采 用 集成 


G, 0.4801 0.2382 0.8899 


RG+A 0.5286 0.2623 0.8957 


RG,+S 0.5342 0.2651 0.8952 


R,G,+A 0.5142 0.2552 0.8834 的 思想 ， 包 括 平均 法 和 Stacking， 都 会 使 融合 后 模型 的 泛 化 性 
R,G,+S 0.5068 0.2515 0.8859 能 高 于 单个 分 类 器 的 泛 化 性 能 。 
表 9 平均 法 融合 不 同 分 类 器 
从 表 5 中 可 以 看 到 ，Top25000 时 ,随机 森林 的 查 准 率 和 查 模型 P R AUC 
全 率 比 GBDT 好 ， 而 GBDT 的 AUC 优 于 随机 森林 。 此 外 ， 随 R Gp +A 0.5622 0.2790 0.9027 
机 森林 在 月 粒度 特征 上 性 能 较 好 , 而 GBDT 在 日 粒度 特征 上 性 RoG +A 05696 02872 0.9039 
能 更 好 。 在 对 使 用 单个 时 间 粒 度 训 练 的 模型 融合 时 候 ， 月 粒度 表 10 Stacking 融合 不 同 分 类 器 
特征 比 日 粒度 特征 有 更 好 的 表现 。 模型 P R AUC 
表 6 月 粒度 特征 和 日 粒度 特征 融合 R,G,+S 0.5564 0.2761 0.9048 
模型 P R AUC RG +S 0.5624 0.2791 0.9068 


R 0.5454 0.2707 0.8787 

G, 0.5159 0.2560 0.9028 K 9 和 10 展示 了 对 不 同类 型 的 分 类 器 进行 融合 的 结果 。 

可 以 看 出 将 Rs 和 Gizs 通过 平均 法 融合 后 ， 查 准 率 从 Rs+ 4 
从 表 6 中 可 以 看 到 ， 将 月 粒度 特征 和 日 粒度 特征 直接 拼接 的 0.5545 All G,,, + A 的 0.5449 提高 到 0.5696, 通过 Stacking 融 

训练 模型 后 ， Rs 和 G; 的 查 准 率 和 查 全 率 都 有 很 明显 的 提升 ， ERM Ra +S 的 0.5585 M Go +S 的 0.5246 提高 到 

G; 的 AUC 也 有 小 幅度 提升 。R, 在 没有 进行 多 模型 融合 的 情况 “0.5624。 在 查 全 率 和 AUC 上 同样 有 提升 。 可 以 说 明 ， 对 有 差异 

下 查 准 率 超 过 了 Baseline 中 的 4 种 多 模型 融合 方法 ，G; 也 超过 的 不 同类 型 的 分 类 器 融合 之 后 可 以 得 到 更 好 的 性 能 。 并 且 平 均 


了 2 种 融合 方法 ， 说 明 直 接 拼接 月 和 日 粒度 特征 对 模型 效果 有 ”法 融合 比 Stacking 有 更 好 的 表现 。 
很 明显 的 提升 。 3.2.1 分 类 器 数量 对 性 能 的 影响 
47 平均 法 融合 同 种 分 类 器 从 表 5~10 中 可 以 看 出 ， 模 型 最 终 性 能 随 着 分 类 器 数量 的 
模型 P R Auc 增加 提高 。 以 GBDT+ 简 单 平均 法 为 例 ， 如 图 5 所 示 ，Gis +A 


的 Top25000 的 查 准 率 、 查 全 率 和 AUC 分 别 比 只 使 用 G 提高 
了 0.0594、0.0294 和 0.0135, WHA G; JE RI Gins + A HER IEN G, 
提高 了 0.0821, 0.0407 和 0.018, R Gp +A 比 只 使 用 GG 提高 
了 0.0994、0.0493 和 0.0148, {EH RG +A 比 只 使 用 Ri 提 
高 了 0.1068, 0.0575 和 0.016. 


R, +A 0.5507 0.2733 0.8871 


Ra +A 0.5545 0.2752 0.8876 


G +A 0.5222 0.2591 0.9014 


Giz +A 0.5449 0.2704 0.9059 


ER 7 中 比较 了 使 用 平均 法 融合 不 同 模型 的 结果 ， 可 以 看 3.2.2 不 同 的 分 类 器 对 性 能 的 影 " 

到 对 模型 R 和 R, 取 平 均值 后 的 性 能 要 高 于 单个 模型 的 性 能 ， 从 表 5~8 中 可 以 看 出 ， 在 固定 输入 和 模型 融合 方法 ， 只 对 
查 准 率 从 R 的 0.5174 ALR, 的 0.5072 提高 到 0.55307， 入 有 Rs: 后 ”比分 类 器 的 情况 下 ， 随 机 森林 在 Top25000 的 查 准 率 和 查 全 率 
可 以 进一步 提高 性 能 ， 达 到 0.5545， 和 Baseline 中 的 2 个 平均 ”上 的 表现 好 于 GBDT,GBDT 在 AUC 上 的 表现 好 于 随机 森林 。 
法 融合 模型 的 方法 比 也 同样 有 提高 ， 从 0.5286 和 0.5142 提高 于 本 文 的 实验 更 加 关注 查 准 率 ， 可 以 认为 随机 森林 的 效果 略 


201805.00048v1 
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好 于 GBDT。 无 论 使 用 哪 种 分 类 器 ， 将 月 粒度 和 日 粒度 的 特征 
同时 用 来 训练 模型 的 效果 均 好 于 只 使 用 一 种 时 间 粒 度 训练 模型 。 


0.5622 
0.56 
0.5449 
0.54 
0.5222 
0.52 0.5159 
0.50 
0.4801 

0.48f 

0.4628 
-E 

G 


1 Gz Gs Giza Ri2Gi2 R123G123 


top 25000 precision 


a 


RI 


5 ”模型 数量 对 性 能 的 影响 


3.2.3 不 同 的 模型 融合 方法 对 性 能 的 影响 

从 表 7~10 中 可 以 看 出 ， 在 本 文 数 据 集中 使 用 平均 法 比 使 
] Stacking 融合 的 模型 有 更 好 的 性 能 。 同 样 地 ， 无 论 使 用 哪 种 
模型 融合 方法 ， 将 月 粒度 和 日 粒度 的 特征 同时 用 来 训练 模型 的 
效果 均 好 于 只 使 用 一 种 时 间 粒 度 训 练 模型 。 


so 


4 ”结束 语 


传统 离 网 预测 模型 只 选取 单一 时 间 粒 度 特征 形成 数据 集 
训练 , 这 类 方法 只 考虑 了 模型 对 性 能 的 影响 , 没有 从 数据 的 角 
度 考虑 ， 本 文 提 出 将 不 同时 间 粒 度 的 特征 融合 ， 形 成 三 组 不 同 
的 数据 集 ， 在 这 些 数据 集 上 使 用 随机 森林 和 GBDT 训练 ， 通过 
模型 融合 得 到 最 终结 果 。 实 验证 明 ， 这 种 方法 将 模型 的 查 准 率 
从 0.4628~0.5147 提高 到 了 0.5696。 多 粒度 时 序 特征 的 本 质 是 
在 原 有 特征 的 基础 上 做 特征 工程 ， 这 种 特征 工程 的 方法 只 需要 
根据 不 同 的 时 间 粒 度 聚 合 特征 ， 操 作 简单 容易 实现 。 本 文 验证 
多 粒度 时 序 特征 在 离 网 预测 任务 中 效果 很 好 ， 并 在 此 基础 上 
提出 了 一 个 基于 多 粒度 时 序 特 征 的 离 网 预测 框架 
目前 本 文 只 考虑 融合 月 和 日 两 种 时 间 粒 度 ， 在 进一步 的 研 
究 中 将 会 加 入 更 多 的 时 间 粒 度 ， 同 时 尝试 更 复杂 的 融合 方法 ， 
例如 构建 多 层 融合 模型 以 期 进一步 提高 模型 性 能 。 


参考 文献 : 


[1] Coussement K, Van den Poel D. Churn prediction in subscription services: 
An application of support vector machines while comparing two parameter- 
selection techniques [J]. Expert Systems with Applications, 2008, 34 (1): 
313-327. 

[2] Verbeke W, Dejaeger K, Martens D, et al. New insights into churn prediction 
in the telecommunication sector: A profit driven data mining approach [J]. 
European Journal of Operational Research, 2012, 218 (1): 211-229. 

[3] Reinartz W J, Kumar V. The impact of customer relationship characteristics 
on profitable lifetime duration [J]. Journal of marketing, 2003, 67 (1): 77- 
99. 

[4] Guyon I, Lemaire V, Boullé M, et al. Design and analysis of the KDD cup 


2009: fast scoring on a large orange customer database [J]. ACM SIGKDD 


站 ID A 
BÉR, F: 多 粒度 时 序 特征 在 离 网 预测 中 的 应 


Explorations Newsletter 2010, 11 (2): 68-76. 

[5] YuHF, LoHY, Hsieh HP, et al. Feature Engineering and classifier ensemble 
for KDD Cup 2010 [C]// Proc of JMLR: Workshop and Conference 
Proceedings. 2010: 1-16 

[6] Umayaparvathi V, Iyakutti K. Automated feature selection and churn 
prediction using deep learning models [J]. International Research Journal of 
Engineering and Technology, 2017, 4 (3): 1846-1854. 

[7] Castanedo F, Valverde G, Zaratiegui J, et al. Using deep learning to predict 
customer churn in a mobile telecommunication network [DB/OL]. 
http://www. wiseathena. com/pdf/wa_dl. pdf. 

[8] Wangperawong A, Brun C, Laudy O, et al. Churn analysis using deep 
convolutional neural networks and autoencoders [J]. arXiv preprint arXiv: 
1604. 05377, 2016. 

[9] Zaratiegui J, Montoro A, Castanedo F. Performing highly accurate 
predictions through convolutional networks for actual telecommunication 
challenges [J]. arXiv preprint arXiv: 1511. 04906, 2015. 

[10] Stripling E, Van den Broucke S, Antonio K, et al. Profit maximizing logistic 
regression modeling for customer churn prediction [C]// Proc of IEEE 
International Conference on Data Science and Advanced Analytics. 2015: 1- 
10. 

[11] Lu Ning, Lin Hua, Lu Jie, et al. A customer churn prediction model in 
telecom industry using boosting [J]. IEEE Trans on Industrial Informatics, 
2014, 10 (2): 1659-1665. 

[12] Owczarczuk M. Churn models for prepaid customers in the cellular 
telecommunication industry using large data marts [J]. Expert Systems with 
Applications, 2010, 37 (6): 4710-4712. 

[13] Zhao Xi, Shi Yong, Lee Jongwon, et al. Customer churn prediction based on 
feature clustering and nonparallel support vector machine [J]. International 
Journal of Information Technology & Decision Making, 2014, 13 (05): 
1013-1027. 

[14] Shaaban E, Helmy Y, Khedr A, et al. A proposed churn prediction model [J]. 
International Journal of Engineering Research and Applications, 2012, 2 (4): 
693-697. 

[15] Abbasimehr H, Setak M, Tarokh M J. A comparative assessment of the 
performance of ensemble learning in customer churn prediction [J]. Internal 
Arab Journal Information Technology, 2014, 11 (6): 599-606. 

[16] Binti Oseman, K, Haris N A, bin Abu Bakar F. Data mining in churn analysis 
model for telecommunication industry [J]. Journal of Statistical Modeling 
and Analytics Vol, 2010, 1 (19-27) . 

[17] Kirui C, Hong Li, Cheruiyot W, et al. Predicting customer churn in mobile 
telephony industry using probabilistic classifiers in data mining [J]. 
International Journal of Computer Science Issues, 2013, 10 (2): 1694-0784. 

[18] Idris A, Khan A. Ensemble based efficient churn prediction model for 
Telecom [C]// Proc of the 12th International Conference on Frontiers of 
Information Technology. 2014: 238-244. 


[19] Coussement K, Van den Poel D. Churn prediction in subscription services: 


201805.00048v1 


chinaXiv 


录用 稿 


an application of support vector machines while comparing two parameter- 
selection techniques [J]. Expert Systems with Applications, 2008, 34 (1): 
313-327. 

[20] Verbeke W, Martens D, Mues C, et al. Building comprehensible customer 
churn prediction models with advanced rule induction techniques [J]. Expert 
Systems with Applications, 2011, 38 (3): 2354-2364. 

[21] Kim N, Jung K H, Kim Y S, et al. Uniformly subsampled ensemble (USE) 
for churn management: Theory and implementation [J]. Expert Systems with 


Applications, 2012, 39 (15): 11839-11845. 


hi 


‘ naX iv Vv 合作 
BAK, F: SRR RENE Ma 


F! 


的 应 用 


[22] Wei C P Chiu I T. Turning telecommunications call details to churn 
prediction: a data mining approach [J]. Expert Systems with Applications, 
2002, 23 (2): 103-112. 

[23] Zhang Junbo, Zheng Yu, Qi Dekang. Deep spatio-temporal residual 
networks for citywide crowd flows prediction [C]// Proc of the 31st AAAT 
Conference on Artificial Intelligence. 2017. 

[24] Breiman L. Random forests [J]. Machine Learning, 2001, 45 (1): 5-32. 

[25] De Groot D. S. Churn prediction in telecommunication [D]. Delft: 


Technische University Delft, 2017. 


